使用 Google AI Studio 生成語音檔
TLDR
- 工具定位:Gemini 為個人助手,適合日常任務;Google AI Studio 為開發者工作站,提供專業參數與語音生成功能。
- 隱私建議:若處理敏感內容,請在 AI Studio 設定計費專案(Set up billing),以確保資料不被用於模型訓練。
- 計費模式:AI Studio 提供免費配額,超出後採隨用隨付制。
- 參數調整:Temperature 建議維持預設值
1,過低可能導致語音異常或機器音。 - 腳本優化:中英文間加入半形空格可提升發音準確度;段落間勿使用過多空行,以免模型誤判結束。
- 適用場景:適合 Podcast、有聲內容或演講練習;不適合需逐字精確朗讀的法律或技術文件。
工具定位與隱私差異
在選擇工具時,需區分 Gemini 與 Google AI Studio 的定位差異:
- Gemini:個人數位助手,介面直覺,整合 Google 生態系服務。
- AI Studio:開發者工作站,提供專業參數控制與 Generate speech 等進階功能。
隱私與計費注意事項:
- Gemini:預設會使用對話資料訓練模型,關閉「活動紀錄」雖可保護隱私,但會失去對話儲存功能。
- AI Studio:免費配額下資料會用於訓練。若要確保隱私,務必設定計費專案(Set up billing),此模式下輸入資料不會被用於訓練。
WARNING
若處理敏感內容或在意隱私,建議在 AI Studio 設定計費專案。
操作流程
若要將文字轉換為擬真的 AI 語音,請依循以下步驟:
- 進入 Google AI Studio,點擊左側「Playground」並選擇「Audio」分類,選取「Gemini 2.5 Pro Preview TTS」。
- 在 Text 輸入框貼上腳本。
- 於設定欄位選擇 Voice(語音角色)。
- 點擊「Run Ctrl + ↵」執行運算。
- 試聽後,點擊右側三點圖示(⋮)下載
.wav檔案。


WARNING
若短時間內大量生成,可能遇到 Failed to generate content: user has exceeded quota. Please try again later. 錯誤,代表額度用完,請稍後再試。
參數設定說明
Mode(模式選擇)
- Single-speaker audio:單人腳本。
- Multi-speaker audio:多人腳本(目前限制兩人)。
Model settings:Temperature
此參數控制語音生成的隨機性(範圍 0 ~ 2,預設 1)。
- 踩雷紀錄:實測發現將 Temperature 調低(低於
0.6~0.7)時,容易發生「前段正常,後段突然靜音或產生無意義噪音」的狀況,且語氣容易出現機器音。 - 建議做法:除非有耐心反覆測試極限值,否則建議維持預設值
1。
Text(腳本內容優化)
- 中英夾雜:在中文與英文單字間加入半形空格,能協助 AI 更精準切換語系。
- 段落停頓:段落間空行代表停頓,但請勿連續超過兩行,否則可能導致語音提前結束。
- 時長限制:單次生成上限約 11 分鐘。若內容長度接近上限,建議重新執行,因每次語速略有不同。
TIP
由於訓練資料中大陸用語佔比較高,系統可能自動將台灣用語替換(例如「堆疊」變「堆棧」)。目前無完美解法,建議接受此限制。
腳本範例
以下為製作語音內容時的設定參考:
Style instructions
text
請用生動、熱情且自然的對話語氣。中文語調請保持柔和、親切,英文請用標準美式口音。Text
text
歡迎收聽軟體工程師英語的第一集。今天我們的主題是 Git 版本控制。
版本控制
Version Control
例句:Git is the most popular distributed version control system.
Git 是最受歡迎的分散式版本控制系統。總結
Google AI Studio 的 Generate speech 具備「理解並演繹」腳本的能力,而非單純逐字朗讀。
- 適合情境:製作 Podcast、有聲書、報告練習或劇本試讀。
- 不適合情境:法律文件、技術規格書等需要完全忠於原文的逐字朗讀內容,建議改用傳統 TTS 工具。
異動歷程
- 初版文件建立。